Panoramica e panorama dell'evoluzione architetturale

Passiamo dal successo fondamentale di AlexNet all'era delle reti neurali convoluzionali ultraprofonde Reti Neurali Convolutionali (CNN). Questo cambiamento ha richiesto innovazioni architetturali profonde per gestire una profondità estrema mantenendo la stabilità durante l'addestramento. Analizzeremo tre architetture fondamentali—VGG, GoogLeNet (Inception), e ResNet—comprendendo come ciascuna abbia risolto aspetti diversi del problema della scalabilità, gettando le basi per un'interpretazione rigorosa dei modelli in seguito in questa lezione.

1. Semplicità strutturale: VGG

VGG ha introdotto il paradigma di massimizzare la profondità utilizzando dimensioni di kernel estremamente uniformi e piccole (esclusivamente filtri convoluzionali 3x3impilati). Anche se computazionalmente costoso, la sua uniformità strutturale ha dimostrato che la profondità grezza, ottenuta con variazioni architetturali minime, era un fattore primario per miglioramenti prestazionali, consolidando l'importanza dei campi receptivi piccoli.

2. Efficienza computazionale: GoogLeNet (Inception)

GoogLeNet ha contrastato il costo computazionale elevato di VGG privilegiando l'efficienza e l'estrazione di caratteristiche su più scale. L'innovazione centrale è il modulo Inception, che esegue convoluzioni parallele (1x1, 3x3, 5x5) e pooling. Criticamente, utilizza convoluzioni 1x1 come colli di bottigliaper ridurre drasticamente il numero di parametri e la complessità computazionale prima delle operazioni costose.

Problema ingegneristico chiave

Apprendimento residuale: ResNet

ResNet ha risolto il problema della degradazione introducendo la mappatura identità (connessione skip). Questo collegamento non sequenziale permette alla rete di apprendere una funzione residua $F(x)$ invece di una mappatura diretta $H(x)$, garantendo efficacemente che aggiungere ulteriori livelli possa solo migliorare o mantenere le prestazioni, migliorando notevolmente la stabilità dell'ottimizzazione.

Diagram showing a ResNet skip connection architecture

Domanda 1

Quale architettura ha enfatizzato l'uniformità strutturale utilizzando principalmente filtri 3x3 per massimizzare la profondità?

AlexNet

VGG

GoogLeNet

ResNet

Domanda 2

La convoluzione 1x1 viene principalmente utilizzata nel modulo Inception per quale scopo fondamentale?

Aumentare la risoluzione della mappa delle caratteristiche

Attivazione non lineare

Riduzione della dimensionalità (collo di bottiglia)

Attenzione spaziale

Sfida critica: Gradienti che svaniscono

Soluzioni ingegneristiche per l'ottimizzazione

Spiega come la mappatura identità di ResNet affronti fondamentalmente il problema dei gradienti che svaniscono oltre tecniche come l'inizializzazione migliorata dei pesi o la normalizzazione batch.

Descrivi il meccanismo tramite cui la connessione skip stabilizza il flusso del gradiente durante la retropropagazione.

Soluzione:
La connessione skip introduce un termine identità ($+x$) nell'output, creando un termine additivo nel percorso del derivato ($\frac{\partial Loss}{\partial H} = \frac{\partial Loss}{\partial F} + 1$). Questo termine garantisce un percorso diretto per il segnale del gradiente che scorre all'indietro, garantendo che i pesi a monte ricevano un segnale di gradiente non nullo e utilizzabile, indipendentemente da quanto piccoli diventino i gradienti attraverso la funzione residua $F(x)$.